Карань Анна
студентка факультета биоинженерии и бионформатики

Комплексы ДНК-белок

Задание 1. Предсказание вторичной структуры заданной тРНК.

В данном задании необходимо сравнить результаты предсказания вторичной структуры тРНК 2-х программ: einverted (ищет инвертированные повторы) и RnaFold (работает по алгоритму Зукера) с find_pair.

На Рис.1. изображена типичная структура тРНК и установленные названия участков.

Программа einverted получает на вход fasta файл искомой тРНК (в моем случае 1h4s.fasta без последовательности белка) и выдает 2 файла sequence.fasta, в котором записаны полученные комплементарные участки, и sequence.inv, в котором найденные водородные связи в этих участках.
Если использовать стандартные параметры для работы данной программы, то она не выдает результатов. Поэтому попробуем, варьируя параметры, получить предсказание наиболее близкое к реальной структуре. После многих попыток изменения параметров самый лучший результат был получен, например, при следующих параметров:

gap penalty [12]: 9
minimum score treshold [50]: 20
match score[3]: 5
mismatch score[-4]: -6




Для других параметров либо программа вообще ничего не обнаруживала, либо выделяла слишком крупный участок, почти половину всей последовательность, из-за ослабленных параметров, несколько участков она не давала никогда.
Теперь перейдем к программе RnaFold.
С помощью следующей программы был получен файл с предсказанной вторичной структурой:

cat 1h4s.fasta | RNAfold --MEA > 1h4s_rnafold.fasta
Однако, был получен файл не такого легко интерпретируемого вида, как в случае einverted .
>1H4S:T|PDBID|CHAIN|SEQUENCE
CGGGGAGUAGCGCAGCCCGGUAGCGCACCUCGUUCGGGACGAGGGGGGCGCUGGUUCAGAUCCAGUCUCCCCGACCA
(((((((..((((.........)))).(((((((...))))))).....(((((.......)))))))))))).... (-33.80)
(((((((..{({{.,,..,,|.||}|.(((((((...})))))).}.)}||||{.......}}}}}))))))).... [-35.45]
(((((((....................(((((((...))))))).....(((((.......)))))))))))).... {-27.10 d=13.30}
(((((((..((((.........)))).(((((((...))))))).....(((((.......)))))))))))).... {-33.80 MEA=56.71}
frequency of mfe structure in ensemble 0.0686331; ensemble diversity 19.36

Точки - нуклеотиды, не образующие водородные связи, вертикальные черточки - соответствующие нуклеотиды должны быть в паре, круглые скобки - нуклеотиды, образующие пары. Однако, также программа выдает файл - 1H4S:T|PDBID|CHAIN|SEQUENCE_ss.ps , в котором можно уже найти в самом конце список номеров нуклеотидов, образующих пары. (этот файл я далее конвертирую в jpg-формат и получаю изображение предсказанной вторичной структуры - Рис.2.)
Результаты, занесенные в итоговую таблицу, получены с 3-ей попытки.

/pairs [
[1 73] [2 72] [3 71] [4 70] [5 69] [6 68] [7 67]
[10 26] [11 25] [12 24] [13 23]
[28 44] [29 43] [30 42] [31 41] [32 40] [33 39] [34 38]
[50 66] [51 65] [52 64] [53 63] [54 62]
] def

Даже на данном этапе сравнения программ, понятно, что RnaFold работает лучше, чем einverted, так как хотя бы обнаруживает 4 участка с водородными связями, в отличие от 1.

Рис.2. Иллюстрация предсказания структуры тРНК с помощью RnaFold

Рис.3. Полученная матрица для предсказанной вторичной структуры

Таблица 1. Сравнение реальной и предсказанной вторичной стуктуры тРНК из файла 1h4s
Участок стуктуры Позиции в стуктуре (по результатам find_pair) Результаты предсказания с помощью einvertedРезультаты предсказания по алгоритму Зукера
Акцепторный стебель 5'-4-7-3'
5'-66-69-3'
Всего 4 пары (теоретически должно быть семь)
5'-1-7-3'
5'-67-73-3'
Обнаружены 7 теоретических пар, однако со смещением на нуклеотид
5'-1-7-3'
5'-67-73-3'
Всего 7 пар, однако со смещением на нуклеотид
D-стебель5'-10-13-3'
5'-22-25-3'
Всего 5 пар
ничего 5'-10-13-3'
5'-23-26-3'
Всего 5 пар, однако со смещением на нуклеотид
Т-стебель 5'-49-53-3'
5'-61-65-3'
Всего 5 пар
ничего 5'-50-54-3'
5'-62-66-3'
Всего 5 пар, однако со смещением на нуклеотид
Антикодоновый стебель 5'-26-32-3'
5'-38-44-3'
Всего 7 пар
ничего 5'-28-34-3'
5'-38-44-3'
Всего 7 пар, однако со смещением на 2 нуклеотида
Общее число канонических пар нуклеотидов 197 22

Как видно из Таблицы 1. программа einverted вообще не имеет предсказательной силы. RnaFold намного более валадиные результаты, обнаруживает все 4 стебля, для каждого дает верное число нуклеотидов, однако, почти все водородные связи в стеблях смещены на одни нуклеотид.
В итоге, RnaFold имеет некую предсказательную силу, но конкретные взаимодействующие нуклеотиды необходимо проверять.

Задание 2. Поиск ДНК-белковых контактов в заданной структуре

В данном задании необходимо изучить ДНК-белковые контакты белка.
В первом упражнении необходимо было создать скрипт со следующими свойствами:

1. Определяет множества атомов кислорода 2'-дезоксирибозы,
кислорода в остатке фосфорной кислоты, азота в азотистых основаниях
2. Дает последовательное изображение всей структуры, только ДНК
в проволочной модели, той же модели, но с выделенными
шариками вышеописанных множеств.

Вот необходимый скрипт: define.spt
Во втором упражнении нужно описать ДНК-белковые контакты в заданной стуктуре и сравнить количество контактов разной природы.
Считать контакты будем по следующим правилам:

1.Будем считать полярными атомы кислорода и азота, а неполярными – атомы углерода, фосфора и серы.
2.Назовем полярным контактом ситуацию, в которой расстояние между полярным атомом белка и полярным атомом ДНК меньше 3.5Å.
Аналогично, неполярным контактом будем считать пару неполярных атомов на расстоянии меньше 4.5Å.

Это В-форма ДНК, значит, рассматриваем соответствующие атомы большой и малой бороздки, найденные в прошлом задании (для цитозина возьмем полученные мной данные, для остальных нуклеотидов воспользуемся результатами однокурсников.

Таблица 2. Контакты разного типа в комплексе 1MHD.pdb
Контакты атомов белка с Полярные НеполярныеВсего
остатками 2'-дезоксирибозы 134
остатками фосфорной кислоты 5 1 6
остатками цитозина со стороны большой бороздки 0 0 0
остатками цитозина со стороны малой бороздки 0 0 0
остатками гуанина со стороны большой бороздки (Кузнецова Ксения) 2 35
остатками гуанина со стороны малой бороздки 0 0 0
остатками аденина со стороны большой бороздки (Волынкиа Инна) 2 0 2
остатками аденина со стороны малой бороздки 0 0 0
остатками тимина со стороны большой бороздки (Карпухина Анна) 0 6 6
остатками тимина со стороны малой бороздки 0 0 0
остатками всех азотистых оснований со стороны большой бороздки 4 9 13
остатками всех азотистых оснований со стороны малой бороздки 0 0 0

Скрипт, с помощью которого получена таблица:dif_contact.spt
В Таблице 2. рассматривались все контакты только с одной цепью белка - А. *Остатки фосфорной кислоты контактируют с цепью A белка в том же участке, что и остатки 2'-дезоксирибозы. Как видно из таблицы (+процерки атомов не со стороны бороздок), атомы цитозина вообще не взаимодействуют c белком, это можно объяснить тем, что либо цитозина нет в предполагаемов участке взаимодействия ДНК с цепью А, либо расстояние слишком большое для контакта (Рис.4)

Рис.4. Изображение контакта ДНК с цепью А белка. Зелеными крупными шариками обозначены атомы остатков фосфорной группы и 2'-дезоксирибозы, контактирующие с белков. В модели wireframe показаны остатки цитозина, остальное ДНК в cartoons. Для цитозинов, лежащих в области контакта ДНК и белка (участок большой бороздки между зелеными шариками) измерены самые меньшие расстояния между атомами азотистого основания и белка. Это 4,5 и 4,09 для азота из цитозина, соответственно контактом не является.

Как видно из таблицы с белком взаимодействуют атомы азотистых оснований только большой бороздки, что , в принципе, следует и из положения белка относительно ДНК (он как раз входит в большую бородку) (Рис.5).

Рис.5. Изображение контакта ДНК с цепью А белка. Зелеными крупными шариками обозначены все атомы ДНК, контактирующие с цепью.

Также на основе таблицы можно предположить, что для взаимодействия белка и ДНК более важны полярные контакты, что тоже подтверждается теоретически.
В третьем упражнении необходимо получить популярную схему ДНК-белковых контактов с помощью программы nucplot. Контакты, полученные с помощью nucplot изображены на Рис.6.

Рис.6. Две страницы, выданные nucplot, показывающие контакты ДНК с белком.

Для данного белка, в принципе, контактов с ДНК не очень много, поэтому трудно выбрать конкретную аминокислоту, образующую их наибольшее число, только если выделить Leu71, и на А и на В цепи образующий 2 контакта.
Для участия в распозновании ДНК аминокислотный остаток должен связываться с азотистым основанием, а не с какими-то другими частями ДНК, такими как сахар или остаток фосфорной кислоты. Это сильно сужает круг подозреваемых на наиболее важный для распознования ДНК аминкоислотный остаток из-за большого числа контактов с остатком фосфорной кислоты для данного белка. С азотистым основанием взаимодействует Arg74(A и B), Lys81(A и B), Gln76(B). Даже после этого предположения выбрать конкретный, самый важный аминокислотный остаток нельзя, остается 2 кандадата - аргинин и лизин.

A
B

Рис.7. Изображение контактов предполагаемо наиболее важных для распознавания ДНК аминокислот, на примере Arg74:A и Lys81:A. A) Контакт Arg74 c G2004. Измерены расстояния между контактирующими атомами азота боковой группы аргинина и О6 и N7 гуанина. B) Контакт Lys81 и А1007 . Измерено расстояние между азотом боковой группы лизина и N7 аденина.


©Карань Анна, 2015